test 交叉验证分类器分类数据大数据数据数据挖掘数据挖掘技术数据挖掘算法数据清洗文本挖掘过采样随机算法

数据挖掘：数据清洗——数据不平衡处理

标签： test 交叉验证分类器分类数据大数据数据数据挖掘数据挖掘技术数据挖掘算法数据清洗文本挖掘过采样随机算法

数据挖掘：数据清洗——数据不平衡处理一、什么是数据不平衡？不平衡数据集指的是数据集各个类别的样本数目相差巨大，也叫数据倾斜。以二分类问题为例，即正类的样本数量远大于负类的样本数量。严格地讲，任何...

【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题

金山办公2020校招大数据和机器学习算法笔试题，范围包括了数据结构、java程序设计、自然语言处理、机器学习、数据结构、正则表达式

数据挖掘相关算法

数据获取1.1 数据挖掘的对象1.2数据挖掘的步骤1.3支持数据挖掘的关键技术1.4数据仓库1.5数据仓库的模型1.6典型的OLAP操作2 数据准备2.1 维归约/特征提取2.1.1决策树归约2.1.2粗糙集归约2.2 数据变换2.2.1归一化与...

【机器学习案例】不同的模型算法对鸢尾花数据集进行分类

标签：算法分类数据挖掘

经典机器学习入门项目，使用逻辑回归、线性判别分析、KNN、分类与回归树、朴素贝叶斯、向量机、随机森林、梯度提升决策树对不同占比的训练集进行分类

数据挖掘重点知识整理（金融大数据）

标签：大数据数据挖掘机器学习

数据挖掘(Data Mining)，就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，利用统计、计算机、数学等领域的方法提取隐含在其中的信息和知识的过程。数据挖掘技术具有的特点：（1）处理的数据规模...

用银行营销数据学习数据挖掘：探索预测客户购买行为的模型

标签：数据挖掘人工智能分类

使用Python对银行营销数据进行分类建模，用以预测客户购买行为...分类建模过程包括对数据预处理、对不平衡数据的处理、使用三种分类模型建模、利用交叉验证寻找各模型最优参数、对模型效果评估、选择最优模型进行应用。

基于matlab的表情识别代码-data-mining:数据挖掘算法的应用：KNN，K-means聚类和多标签学习

标签：系统开源

基于matlab的表情识别代码数据挖掘项目1 在本作业中，您将研究k最近邻，神经网络和SVM分类器在两个实际分类问题上的应用。用于此分配的数据集已上传到“数据集”文件夹下。 x_train，y_train，x_test和y_test分别...

数据挖掘实战(以kaggle为例）

标签：数据挖掘机器学习人工智能

第一课主要分为以下内容进行讲述机器学习工业应用领域机器学习常用算法机器学习常用工具 ...它是通过构建多个相互独立的基本模型（通常是决策树或其他分类器），然后通过对基本模型的预测结果

分类算法系列⑥：随机森林

标签：随机森林数据挖掘决策树

本文介绍机器学习当中一个非常重要的内容：随机森林。

大数据分析案例-基于随机森林算法构建人口普查分析模型

标签： python 数据分析数据挖掘

人口问题始终是我国面临的全局性、长期性、战略性问题，七人普全面查清了我国人口数量、结构、分布等方面情况，准确反映了当前人口变化的趋势性特征，获得了大量宝贵的信息资源，我们正在抓紧对普查数据进行整理、...

数据挖掘（四）KNN

标签：数据挖掘 python

k-近邻（kNN, k-NearestNeighbor）算法是一种基本分类与回归方法，我们这里只讨论分类问题中的 k-近邻算法。一句话总结: 近朱者赤近墨者黑！k 近邻算法的输入为实例的特征向量，对应于特征空间的点；输出为实例的...

Python数据挖掘-机器学习

标签：机器学习 python 数据挖掘

sklearn.datasets.load_*：小数据集sklearn.datasets.fetch_*：大数据集。

数据挖掘实战1：泰坦尼克号数据

标签：数据挖掘 python 人工智能

对泰坦尼克号数据进行挖掘建模分析

机器学习与数据挖掘

标签：数据挖掘机器学习

总结 1.1机器学习和数据挖掘的关系机器学习是数据挖掘的重要工具。数据挖掘不仅仅要研究、拓展、应用一些机器学习方法...大体上看，数据挖掘可以视为机器学习和数据库的交叉，它主要利用机器学习界提供的技术来分析

数据挖掘：数据清洗——缺失值处理

标签：数据挖掘机器学习 python

数据挖掘：数据预处理——缺失值处理一、什么是缺失值缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。而在数据处理的过程中，缺失...

【北邮果园大三上】数据挖掘

标签：数据挖掘北邮大三上

文章为北邮果园大三上课程，任课老师是xsy，希望对以后的同学有所帮助

泰迪杯挑战赛优秀论文-A题-基于数据挖掘的上市公司高送转预测

标签：数据挖掘大数据算法

目录第 1 章绪论 1.1问题背景 1.2问题重述 1.3本文主要工作与创新点 1.4模型假设 1.5本文研究意义第 2 章相关理论 2.1高送转相关知识介绍 2.1.1高送转的实质 ...第 3 章数据预处理及因子筛选

数据挖掘实战（四）--用决策树预测获胜球队

标签：决策树数据挖掘机器学习

决策树、随机森林等估计器

Python数据分析之机器学习：分类

标签： python 算法机器学习

机器学习的分类模型包括：k近邻算法，朴素贝叶斯，决策树，支持向量机，集成算法（随机森林、Adaboost）

大数据分析案例-基于随机森林算法构建肥胖预测模型并探究肥胖的成因

标签：机器学习人工智能 python

本文使用UCI中一项关于人们饮食习惯和身体状况调查的数据集，分别通过决策树以及随机森林算法对数据进行处理，拟在寻找肥胖的成因。算法通过对14种影响因子进行多标签分类获取各影响因子与肥胖程度之间的权值，最终...

数据挖掘专栏三-Python-消费者人群画像信用智能评分

标签：数据挖掘 python 人工智能

XGBoost LightGBM 对抗验证聚类算法特征构造学习曲线 Randomized SearchCV Grid SearchCV

基于数据挖掘的上市公司财务数据分析——第九届“泰迪杯”挑战赛A题优秀作品

标签：数据挖掘金融数学建模上市公司财务造假

随着网络和计算机技术的快速发展，如何对各种重要资料进行数据分析是应对变化发展的主要途径。公司在经营过程中积累了大量的数据，股份持有者需要对企业财务数据进行有效分析；很多金融网站每天都发布各上市公司的...

大数据分析案例-基于LightGBM算法构建银行客户流失预测模型

标签：机器学习 python 数据挖掘

本项目旨在分析银行客户流失数据，找出客户流失的原因，挖掘影响流失率的因素，最后使用机器学习算法构建银行客户流失预测模型，帮助企业及时针对即将流失的用户进行挽回。众所周知，与保留现有客户相比，签入新客户...

大数据分析案例-基于Adaboost算法构建糖尿病预测模型

标签：机器学习 python 数据挖掘

本项目旨在通过分析糖尿病病人的历史数据，找出影响患糖尿病的因素，最后使用机器学习算法构建糖尿病预测模型。本次实验我们找出了影响糖尿病的重要特征，即血糖水平、年龄、bim，最后我们使用Adaboost算法构建了...

数据挖掘项目：金融风控-贷款违约预测

标签：金融数据挖掘 python

本文主要根据自某信贷平台的贷款记录进行预测，以金融风控中的个人信贷为背景，要求根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，是一个典型的多分类的问题。本文完整的陈述了从数据...

使用遗传交叉算子进行过采样处理数据不平衡

标签：机器学习数据挖掘不平衡数据

交叉/重组过采样为数据集增加了新特征，并且在分类指标，SMOTE和随机过采样方面得分很高除了随机过采样，SMOTE及其变体之外，还有许多方法可以对不平衡数据进行过采样。在使用scikit-learn的make_classification...

广州大学机器学习与数据挖掘实验四

标签：数据挖掘机器学习决策树

本实验课程是计算机、人工智能、软件工程等专业学生的一门专业课程，通过实验，帮助学生更好地掌握数据挖掘与机器学习相关概念、技术、原理、应用等；通过实验提高学生编写实验报告、总结实验结果的能力；使学生对...

数据挖掘实战：个人信贷违约预测

标签：决策树数据挖掘 python

本次分享一个数据挖掘实战项目：个人信贷违约预测，此项目对于想要学习信贷风控模型的同学非常有帮助，数据源在文末。项目背景当今社会，个人信贷业务发展迅速，但同时也会暴露较高的信用风险。信息不对...

数据处理中的过采样、下采样、联合采样和集成采样

标签：深度学习机器学习人工智能

数据处理中的过采样、下采样、联合采样和集成采样1. 导包2. 找数据3. 过采样3.1 RandomOverSampler3.2 SMOTE3.3 SMOTEN3.4 SMOTENC3.5 BorderlineSMOTE3.6 SVMSMOTE3.7 KMeansSMOTE3.8 ADASYN4. 下采样4.1 ...